# Bot check

# HW_ID: phds_hw3
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то

# Status: not final
# Перед отправкой в финальном решении удали "not" в строчке выше
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import accuracy_score, balanced_accuracy_score

from typing import List, Callable, Tuple

import seaborn as sns
sns.set_theme('notebook', font_scale=1.2, palette='Set2')

from tqdm.notebook import tqdm

from sklearn.datasets import load_svmlight_files

file_paths = [f'batch{n}.dat' for n in range(1, 11)]

data = <...>

type(data), len(data), type(data[0]), type(data[1])

(list, 20, scipy.sparse._csr.csr_matrix, numpy.ndarray)

# Формируем список имён признаков
feature_names = [
    f"{sensor}_{suffix}"
    for sensor in range(1, 17)
    for suffix in ["dR", "norm_dR"] +
                  [f"max_ema_{alpha}" for alpha in [0.1, 0.01, 0.001]] +
                  [f"min_ema_{alpha}" for alpha in [0.1, 0.01, 0.001]]
]

# Разделяем данные: X (признаки) и y (таргет)
X_raw, y_list = data[::2], data[1::2]

# Преобразуем разреженные матрицы в DataFrame
X_list = [pd.DataFrame(X.toarray(), columns=feature_names) for X in X_raw]

X_list[0].head()

def visualize_classes(target_batches: List[np.ndarray]):
    """Визуализирует распределение классов во всех батчах

    Args:
        target_batches (List[np.ndarray]): список таргетов
    """
    
    <...>


visualize_classes(y_list)

# Создаем списки для первой и последней строки таблицы
first_ids = [batch['experiment_id'].iloc[0] for batch in X_list]
last_ids = [batch['experiment_id'].iloc[-1] for batch in X_list]

# Создаем DataFrame для отображения
result = pd.DataFrame(
    [first_ids, last_ids],
    index=['First experiment_id', 'Last experiment_id'],
    columns=[f'batch {i+1}' for i in range(len(X_list))]
)

result

gas_id = <...>

<...>

def visualize_metric_fall(scores: List[float]):
    """Визуализирует метрику на обучающем и тестовых батчах с пострением
    прямой характерного спада

    Args:
        scores (List[float]): значения метрики для различных батчей
    """

    n = np.arange(len(scores) - 1)

    linreg = LinearRegression(fit_intercept=True)
    linreg.fit(n.reshape(-1, 1), scores[1:])

    a, b = linreg.coef_[0], linreg.intercept_

    plt.figure(figsize=(8, 5), tight_layout=True)

    plt.plot(n, n * a + b, label=f'${a:.2f}n + {b:.2f}$')
    plt.scatter(n, scores[1:], label="Тестовые батчи")
    plt.scatter(-1, scores[0], label='Обучающий батч')
    plt.xlabel('Номер тестового батча')
    plt.ylabel('Значение метрики')
    plt.legend()


def evaluate_accuracy_decay(
    model: LogisticRegression,
    X_train: pd.DataFrame,
    y_train: np.ndarray,
    X_test_batches: List[pd.DataFrame],
    y_test_batches: List[np.ndarray],
    metric: Callable[[np.ndarray, np.ndarray], float],
    visualize: bool = False
) -> List[float]:
    """Обучает модель на X_train и y_train, тестирует на X_test_batches.
    Возвращает список значений метрики на каждом тестовом батче.

    Args:
        model (BaseEstimator): модель логистической регрессии sklearn
        X_train (pd.DataFrame): обучающий батч (признаки)
        y_train (np.ndarray): обучающий батч (таргет)
        X_test_batches (List[pd.DataFrame]): тестовые батчи (признаки)
        y_test_batches (List[np.ndarray]): тестовые батчи (таргет)
        metric (Callable[[np.ndarray, np.ndarray], float]): метрика для оценки качества
        visualize (bool): если True, визуализировать изменения метрики

    Returns:
        List[float]: список значений метрики на тестовых батчах
    """
    
    # Обучение модели
    <...>

    # На первом месте будет стоять значение метрики на обучающей выборке
    scores = [metric(y_train, model.predict(X_train))]

    # Вычисляем метрику на каждом тестовом батче и добавляем в scores
    <...>
    

    if visualize:
        visualize_metric_fall(scores)

    return scores

def train_alpha_grid(
    min_log_C: float,
    max_log_C: float,
    resolution: int,
    X_train: pd.DataFrame,
    y_train: np.ndarray,
    X_test: pd.DataFrame,
    y_test: np.ndarray,
    penalty: str,
    solver: str = 'newton-cholesky',
    max_iter: int = 100
) -> Tuple[np.ndarray, List[List[float]], List[float], List[float]]:
    """Обучает модель LogisticRegression для разных значений параметра регуляризации C,
    сохраняет коэффициенты, вычисляет accuracy на обучающей и тестовой выборках.

    Args:
        min_log_C (float): минимальное значение log10(C) для сетки.
        max_log_C (float): максимальное значение log10(C) для сетки.
        resolution (int): число точек на сетке C.
        X_train (pd.DataFrame): обучающая выборка (признаки).
        y_train (np.ndarray): отклик на обучающей выборке.
        X_test (pd.DataFrame): тестовая выборка (признаки).
        y_test (np.ndarray): отклик на тестовой выборке.
        penalty (str): тип регуляризации ('l1', 'l2', 'elasticnet', 'none').
        solver (str, optional): метод оптимизации параметров модели. По-умолчанию 'newton-cholesky'.
        max_iter (int, optional): максимальное количество итераций для оптимизации. По-умолчанию 100.

    Returns:
        Tuple[np.ndarray, List[List[float]], List[float], List[float]]:
            - C_grid (np.ndarray): сетка значений C,
            - coefs_list (List[List[float]]): список коэффициентов для каждого значения C,
            - baccuracy_train_list (List[float]): список balanced accuracy на обучающей выборке для каждого значения C,
            - baccuracy_test_list (List[float]): список balanced accuracy на тестовой выборке для каждого значения C.
    """

    <...>

def get_proba_distr(
    X_train: pd.DataFrame,
    y_train: np.ndarray,
    X_test: pd.DataFrame,
    C: float = np.inf
) -> Tuple[np.ndarray, float]:

    <...>

Phystech@DataScience ¶

Домашнее задание 3¶

Задача 1¶

Задача 2¶

Введение¶

Проблема¶

Данные ¶

1. Загрузка и подготовка данных¶

1.1 Смотрим на данные¶

1.2 Учитываем время¶

1.3 Определяемя с таргетом¶

1.4 Что собираемся делать?¶

1.5 Стандартизация¶

2. Есть ли мультиколлинеарность?¶

3. Модельки, модельки, модельки...¶

3.1 Самый популярный класс¶

3.2 Модель логистической регрессии без регуляризации¶

3.2 Логистическая регрессия с регуляризацией¶

Задача 3 (продолжение)¶

1. Число обусловленности¶

2. Предсказание вероятностей¶

Phystech@DataScience¶

Домашнее задание 3¶

Задача 1¶

Задача 2¶

Введение¶

Проблема¶

Данные¶

1. Загрузка и подготовка данных¶

1.1 Смотрим на данные¶

1.2 Учитываем время¶

1.3 Определяемя с таргетом¶

1.4 Что собираемся делать?¶

1.5 Стандартизация¶

2. Есть ли мультиколлинеарность?¶

3. Модельки, модельки, модельки...¶

3.1 Самый популярный класс¶

3.2 Модель логистической регрессии без регуляризации¶

3.2 Логистическая регрессия с регуляризацией¶

Задача 3 (продолжение)¶

1. Число обусловленности¶

2. Предсказание вероятностей¶

Phystech@DataScience ¶

Данные ¶